最近,盲目的语音分离(BSS)和目标语音提取(TSE)的表现已取得了长足的进步。但是,大多数作品都专注于相对控制的条件,例如阅读语音。在更现实的情况下,性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性,例如情绪,通常在现实的语音中发生。在本文中,我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集,以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song(Ravdess)。通过受控的实验,我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大,而TSE需要识别和提取目标说话者的语音,对情绪更为敏感。在比较演讲者验证实验中,我们表明,在处理情感语音时,确定目标扬声器可能特别具有挑战性。使用我们的发现,我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
在典型的多讲话者语音识别系统中,基于神经网络的声学模型预测每个扬声器的Senone状态后部。这些稍后被单通讲话者解码器用来分别在每个扬声器特定的输出流上应用。在这项工作中,我们认为这样的计划是次优的,并提出一个原理的解决方案,该原则解决方案共同解码所有发言人。我们修改了声学模型以预测所有扬声器的联合状态后索,使网络能够表达对扬声器的零件归属的不确定性。我们采用联合解码器,可以与更高级别的语言信息一起使用这种不确定性。为此,我们在早期多讲话者语音识别系统中重新访问阶乘生成模型中使用的解码算法。与这些早期作品相比,我们用DNN替换GMM声学模型,提供更大的建模电力并简化了推理的一部分。我们展示了在混合Tidigits DataSet上对概念实验证明的关节解码的优势。
translated by 谷歌翻译
This paper introduces a new open source platform for end-toend speech processing named ESPnet. ESPnet mainly focuses on end-to-end automatic speech recognition (ASR), and adopts widely-used dynamic neural network toolkits, Chainer and Py-Torch, as a main deep learning engine. ESPnet also follows the Kaldi ASR toolkit style for data processing, feature extraction/format, and recipes to provide a complete setup for speech recognition and other speech processing experiments. This paper explains a major architecture of this software platform, several important functionalities, which differentiate ESPnet from other open source ASR toolkits, and experimental results with major ASR benchmarks.
translated by 谷歌翻译
The task of out-of-distribution (OOD) detection is vital to realize safe and reliable operation for real-world applications. After the failure of likelihood-based detection in high dimensions had been shown, approaches based on the \emph{typical set} have been attracting attention; however, they still have not achieved satisfactory performance. Beginning by presenting the failure case of the typicality-based approach, we propose a new reconstruction error-based approach that employs normalizing flow (NF). We further introduce a typicality-based penalty, and by incorporating it into the reconstruction error in NF, we propose a new OOD detection method, penalized reconstruction error (PRE). Because the PRE detects test inputs that lie off the in-distribution manifold, it effectively detects adversarial examples as well as OOD examples. We show the effectiveness of our method through the evaluation using natural image datasets, CIFAR-10, TinyImageNet, and ILSVRC2012.
translated by 谷歌翻译
Wireless ad hoc federated learning (WAFL) is a fully decentralized collaborative machine learning framework organized by opportunistically encountered mobile nodes. Compared to conventional federated learning, WAFL performs model training by weakly synchronizing the model parameters with others, and this shows great resilience to a poisoned model injected by an attacker. In this paper, we provide our theoretical analysis of the WAFL's resilience against model poisoning attacks, by formulating the force balance between the poisoned model and the legitimate model. According to our experiments, we confirmed that the nodes directly encountered the attacker has been somehow compromised to the poisoned model but other nodes have shown great resilience. More importantly, after the attacker has left the network, all the nodes have finally found stronger model parameters combined with the poisoned model. Most of the attack-experienced cases achieved higher accuracy than the no-attack-experienced cases.
translated by 谷歌翻译
数据增强是使用深度学习来提高对象识别的识别精度的重要技术。从多个数据集中产生混合数据(例如混音)的方法可以获取未包含在培训数据中的新多样性,从而有助于改善准确性。但是,由于在整个训练过程中选择了选择用于混合的数据,因此在某些情况下未选择适当的类或数据。在这项研究中,我们提出了一种数据增强方法,该方法根据班级概率来计算类之间的距离,并可以从合适的类中选择数据以在培训过程中混合。根据每个班级的训练趋势,对混合数据进行动态调整,以促进培​​训。所提出的方法与常规方法结合使用,以生成混合数据。评估实验表明,提出的方法改善了对一般和长尾图像识别数据集的识别性能。
translated by 谷歌翻译
通常很难从网上交换的文本中正确推断作家的情绪,而作家和读者之间的认可差异可能会出现问题。在本文中,我们提出了一个新的框架,用于检测句子,以在作者和读者之间在情感识别上产生差异,并检测引起这种差异的表达方式。所提出的框架由基于变压器(BERT)的检测器的双向编码器表示,该表示器检测句子,导致情绪识别差异,并分析获得在此类句子中特征性出现的表达式。该探测器基于由作者和社交网络服务(SNS)文档的三个读者注释的日本SNS文档数据集,并以AUC = 0.772检测到“隐藏的天角句子”;这些句子引起了人们对愤怒的认识的差异。由于SNS文档包含许多句子,这些句子的含义很难通过分析该检测器检测到的句子来解释,因此我们获得了几种表达式,这些表达式在隐藏的角度句子中出现。被发现的句子和表情并不能明确传达愤怒,很难推断作家的愤怒,但是如果指出了隐性的愤怒,就有可能猜测作者为什么生气。在实际使用中,该框架很可能有能力根据误解来缓解问题。
translated by 谷歌翻译
视觉问题回答(VQA)利用多模式数据引起了人们对现实生活应用的密集兴趣,例如家庭机器人和诊所诊断。然而,挑战之一是为不同的客户任务设计强大的学习。这项工作旨在弥合大规模培训数据的先决条件与客户数据共享的限制,主要是由于机密性。我们建议使用对比度损失(UNICON)进行单向分裂学习,以解决分布式数据孤岛的VQA任务培训。特别是,Unicon通过对比度学习对不同客户的整个数据分配进行了全球模型。从不同的本地任务中汇总的全球模型的学会表示。此外,我们设计了一个单向分裂学习框架,以实现更有效的知识共享。 VQA-V2数据集上使用五个最先进的VQA模型进行的综合实验证明了Unicon的功效,在VQA-V2的验证集中获得了49.89%的精度。这项工作是使用自我监督的分裂学习在数据机密性的约束下对VQA进行的首次研究。
translated by 谷歌翻译
机器人进行深入增强学习(RL)的导航,在复杂的环境下实现了更高的性能,并且表现良好。同时,对深度RL模型的决策的解释成为更多自主机器人安全性和可靠性的关键问题。在本文中,我们提出了一种基于深入RL模型的注意力分支的视觉解释方法。我们将注意力分支与预先训练的深度RL模型联系起来,并通过以监督的学习方式使用受过训练的深度RL模型作为正确标签来训练注意力分支。由于注意力分支经过训练以输出与深RL模型相同的结果,因此获得的注意图与具有更高可解释性的代理作用相对应。机器人导航任务的实验结果表明,所提出的方法可以生成可解释的注意图以进行视觉解释。
translated by 谷歌翻译